[アップデート] Amazon Redshift データレイクテーブル上のマテリアライズドビューの増分更新のサポート (プレビュー) #AWSreInvent
データアナリティクス事業本部のコンサルティングチームの石川です。
本日より、Amazon Redshift は、パブリックプレビューでRedshift Spectrumによるデータレイクテーブルをソースとしたマテリアライズドビューの増分リフレッシュをサポートしました。
Amazon Redshiftは、Apache Icebergや標準のAWS Glueテーブルをソースとしたマテリアライズドビューの増分リフレッシュをサポートするようになり、SELECTステートメントの再実行やマテリアライズドビュー内のデータの再書き込みを必要とする完全リフレッシュの必要性がなくなりました。
マテリアライズドビューの増分更新のサポートとは
Amazon Redshiftのマテリアライズドビューは、クエリの事前計算された結果セットを保存することで、大規模なテーブル、特に集計や複数テーブルの結合でのクエリの実行を高速化します。マテリアライズドビューの増分リフレッシュ機能とは、ソーステーブルの変更を自動的に識別し、ソーステーブルの差分データを効率的に更新します。
最後に
今回のアップデートでは、データレイクのマテリアライズドビューも増分更新の対応しました。更新中にデータレイクでの不必要なデータスキャンが防止され、対象となるクエリのマテリアライズドビューの更新にかかる時間とコストが削減されます。
正直なところ、データレイクのデータの増分管理や増分判定をどのように実現しているのかが気になるところです。マテリアライズドビューの適用範囲が増える頼もしいアップデートです。